参与者反复产生音节的Diadochokinetic语音任务(DDK)通常用作评估语音运动障碍的一部分。这些研究依赖于时间密集型,主观的手动分析,并且仅提供粗略的语音图片。本文介绍了两个深度神经网络模型,这些模型会自动从未注释,未转录的语音中分割辅音和元音。两种模型都在原始波形上工作,并使用卷积层进行特征提取。第一个模型基于LSTM分类器,然后是完全连接的层,而第二个模型则添加了更多的卷积层,然后是完全连接的层。这些模型预测的这些分割用于获得语音速率和声音持续时间的度量。年轻健康个体数据集的结果表明,我们的LSTM模型的表现优于当前的最新系统,并且与受过训练的人类注释相当。此外,在对帕金森氏病数据集的看不见的老年人进行评估时,LSTM模型还与受过训练的人类注释者相当。
translated by 谷歌翻译